Telegram Group & Telegram Channel
Что делать, если дисперсия некоторого признака почти нулевая? Как поступить с таким признаком?

▶️ Нулевая дисперсия означает отсутствие разброса в значениях этого признака. Он почти не изменяется для всех наблюдений. Такие признаки часто считаются малоинформативными.

✔️ Наиболее очевидное решение здесь — удалить такой признак. Его отсутствие вряд ли негативно скажется на производительности вашей модели. Если вы в этом не уверены, то можно попробовать оценить влияние данного предиктора на производительность, то есть создать модели с ним и без него и сравнить их.

Есть и другие соображения по этому поводу. Например, рассматриваемый признак принимает два значения: ноль и единицу. В основном он реализуется через нули, а единицы встречаются несколько раз. При этом каждый раз, когда данный предиктор принимает значение 1, мы точно знаем, что объект принадлежит к определённому классу. То есть признак можно считать информативным. Одно из решений для такого предиктора — собрать больше данных, но это не всегда возможно. Также можно рассмотреть использование байесовских моделей.

Так, принимать решение об удалении какого-либо признака следует после внимательного изучения данных.

#машинное_обучение
#статистика



tg-me.com/ds_interview_lib/225
Create:
Last Update:

Что делать, если дисперсия некоторого признака почти нулевая? Как поступить с таким признаком?

▶️ Нулевая дисперсия означает отсутствие разброса в значениях этого признака. Он почти не изменяется для всех наблюдений. Такие признаки часто считаются малоинформативными.

✔️ Наиболее очевидное решение здесь — удалить такой признак. Его отсутствие вряд ли негативно скажется на производительности вашей модели. Если вы в этом не уверены, то можно попробовать оценить влияние данного предиктора на производительность, то есть создать модели с ним и без него и сравнить их.

Есть и другие соображения по этому поводу. Например, рассматриваемый признак принимает два значения: ноль и единицу. В основном он реализуется через нули, а единицы встречаются несколько раз. При этом каждый раз, когда данный предиктор принимает значение 1, мы точно знаем, что объект принадлежит к определённому классу. То есть признак можно считать информативным. Одно из решений для такого предиктора — собрать больше данных, но это не всегда возможно. Также можно рассмотреть использование байесовских моделей.

Так, принимать решение об удалении какого-либо признака следует после внимательного изучения данных.

#машинное_обучение
#статистика

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/225

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Библиотека собеса по Data Science | вопросы с собеседований from id


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA